Projekt WAD

Author

Kacper Gałan, Szymon Gazdowicz

Published

January 22, 2024

Analiza wyników Tour de France z lat 1952-2016

Wprowadzenie

Table 1: Pierwszych sześć obserwacji zgromadzonych danych
Rok Średnie tempo(km/h) zwycięzcy Łączny dystans(km) Liczba etapów Ukończyło wyścig Liczba zgłoszeń Narodowość zwycięzcy Drużyna zwycięzcy Miasto rozpoczęcia Państwo rozpoczęcia
1952 32.23 4898 23 78 122  Italy Italy Brest France
1953 34.59 4476 22 76 119  France France Strasbourg France
1954 33.23 4656 23 69 110  France France Amsterdam Netherlands
1955 34.45 4495 22 69 130  France France Le Havre France
1956 36.27 4498 22 88 120  France Nord-Est-Centre Reims France
1957 34.52 4665 22 56 120  France France Nantes France

Przedstawiony zbiór (patrz Table 1) zawiera podstawowe informacje dotyczące zawodów kolarskich Tour de France, organizowanych w latach 1952-2016. Tour de France to wieloetapowy wyścig kolarski organizowany najczęściej w lipcu, na terenie Francji oraz państw ościennych. Należy do cyklu World Tour [@tourde2022].

Prestiż tego wyścigu wiąże się z długą historią (jest to obecnie najstarszy wyścig kolarski), wielką tradycją oraz przede wszystkim skalą trudności. Szczególnie znanym momentem jest podjazd pod przełęcz L’Alpe d’Huez (patrz Figure 1) : długość podjazdu – 13,8 km; średnie nachylenie 7,9% (maksymalne 12%), przewyższenie – 1126 metrów.

Figure 1: Dolina L’Alpe d’Huez

Analiza zgromadzonych informacji

Podstawowe statystyki opisowe

Table 2: Podstawowe funkcje statystyczne dla zadanego zbioru
Zmienna min max median mean
Średnie tempo(km/h) zwycięzcy 32.23 41.65 37.32 37.50
Łączny dystans(km) 3282.00 4898.00 3946.00 3,928.07
Ukończyło wyścig 53.00 174.00 117.00 114.81
Liczba zgłoszeń 100.00 210.00 170.00 160.94

Analizę danego tematu należy zacząć od przedstawienia podstawowych informacji o tym zbiorze, co już pozwala zauważyć pierwsze związki czy obserwacje (patrz Table 2). Przykładowo w kolumnach median (ang. mediana) i mean (ang. średnia arytmetyczna) widzimy jak niewielkie są odstępstwa miedzy tymi dwiema miarami.

Miasta początkowe wyścigu Tour de France

Table 3: Państwa rozpoczynające Tour de France

Państwo rozpoczęcia

Suma

France

47

Netherlands

6

Belgium

3

Germany

3

Switzerland

1

Luxembourg

1

Spain

1

Ireland

1

United Kingdom

2

Jak widać na wykresie (patrz Table 3) nie można zakładać, że wyścig zawsze rozpoczyna się w Francji. Jeszcze lepiej widać to na poniższej mapie (patrz Figure 2). Pokazuje to jak zróżnicowane geograficznie są omawiane rozgrywki.

Figure 2: Miasta początkowe na tle mapy Europy

Kto jeździł najlepiej?

Na powyższe pytanie pomaga odpowiedzieć tabela niżej (patrz Table 4). Dzięki niej obserwujemy, że to Irlandczycy (!) średnio przejechali najwięcej, natomiast największe prędkości “kręcili” Brytyjczycy.

Table 4: Wyniki poszczególnych zwycięskich narodowości

Wyniki

Narodowość zwycięzcy

Średni dystans

Średnia prędkość

 Italy

4,156.40

37.20

 France

4,214.30

35.94

 Luxembourg

3,980.45

38.26

 Spain

3,769.34

38.57

 Netherlands

4,219.00

34.35

 Belgium

3,989.83

35.73

 USA

3,624.00

37.59

 Ireland Irish

4,231.00

36.65

 Denmark

3,907.00

39.23

 Germany

3,950.00

39.23

USA

3,500.30

40.42

Australia

3,430.00

39.79

 United Kingdom

3,448.68

39.92

Osiągi zwycięskich narodowości

Rozkład średniego dystansu do średniej prędkości wizualizuje wykres Figure 3.

Figure 3: Wizualizacja osiągów poszczególnych zwycięskich narodowości

Amerykanin dzięki środkom wydolnościowym jechał średnio najszybciej w toku całego turnieju w omawianych latach.

Stosunek zapisanych do tych którzy ukończyli konkurs

W kolumnie Procent poniższego wykresu wyrażony jest procentowy stosunek zmiennej Liczba zgłoszeń do Ukończyło wyścig w danych latach. Z tabeli (patrz Table 5) nie zauważamy szczególnej korelacji między latami a omawianą zależnością.

Table 5: Procentowy stosunek zapisanych do finiszerów

Rok

Procent

(2010,2016]

84

(2003,2010]

80

(1984,1990]

72

(1997,2003]

72

(1965,1971]

70

(1978,1984]

70

(1990,1997]

69

(1971,1978]

66

(1952,1958]

61

(1958,1965]

59

Liczba etapów a łączny dystans

Poniższy wykres wizualizuje stosunek zmiennej Liczba etapów do zmiennej Łączny dystans(km) w podziale na państwa, w których omawiany wyścig rozpoczął się przynajmniej dwa razy. Z grafiki odczytujemy ewidentną zależność - im więcej etapów tym dłuższy jest wyścig.

Figure 4: Liczba etapów a długość rejsu

Dobór oraz analiza modelu regresji liniowej

Model na postawie korelacji

Na podstawie poznanych metod i wskaźników miar dopasowania postaramy się wybrać najlepszy model regresji. Rozpoczynamy od doboru zmiennych objaśniających na podstawie wartości korelacji liniowej.

Sugerując się wykresem korelacji odrzucamy z modelu zmienne: Waga oraz Wzrost. Budujemy model postaci:

Średnie tempo(km/h) zwycięzcy ~ Łączny dystans(km) + Liczba etapów + Ukończyło wyścig + Liczba zgłoszeń + Wiek

Przeprowadzamy test ANOVA, aby porównać czy zbudowany powyżej model będzie lepszy od modelu pełnego (każda potencjalna zmienna jest zmienną objaśniającą).

Analysis of Variance Table

Model 1: `Średnie tempo(km/h) zwycięzcy ` ~ `Łączny dystans(km) ` + 
    `Liczba etapów ` + `Ukończyło wyścig ` + `Liczba zgłoszeń ` + 
    Waga + Wzrost + Wiek
Model 2: `Średnie tempo(km/h) zwycięzcy ` ~ `Łączny dystans(km) ` + 
    `Liczba etapów ` + `Ukończyło wyścig ` + `Liczba zgłoszeń ` + 
    Wiek
  Res.Df    RSS Df Sum of Sq      F  Pr(>F)  
1     57 71.720                              
2     59 78.049 -2   -6.3285 2.5148 0.08982 .
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Według przeprowadzonego testu ANOVA lepszy jest model z mniejszą liczbą zmiennych.

Model zbudowany metodą regresji krokowej (wg. indeksu AIC)

Tworzymy konkurencyjne modele zbudowane z użyciem regresji krokowej tworzonej za pomocą funkcji step(). W celu wybrania najbardziej optymalnego modelu sugerować się będziemy indeksem AIC.

Rozpoczynamy od budowy modelu metodą forward, przechodząc od modelu pustego (zawierającego jedynie wyraz wolny) dodając do niego potencjalne zmienne. Otrzymany model: Średnie tempo(km/h) zwycięzcy ~ Wiek + Łączny dystans(km) + Liczba zgłoszeń + Waga + Wzrost, dla którego otrzymany indeks AIC wynosi 18.62.

Następnie sprawdzamy, czy model budowany metodą backward, czyli idąc od modelu pełnego odrzucamy zmienne, które zawyżają wartość indeksu AIC. Otrzymujemy dokładnie taki sam model jak zbudowany powyżej, z dokładnie takim samym indeksem AIC.

Ostatecznie budujemy model, gdzie zmienne objaśniające są zarówno dodawane jak i odrzucane z modelu. Podobnie jak w poprzedniej sytuacji, dostajemy dentyczną podstać modelu.

Wybór ostatecznego modelu

O tym który model będzie ostatecznym modelem regresji, decydować będą wartości miar poasowania danych empirycznych do teoretycznych dla każdego z danych modli.

Model_Nasz Model_Wprzod
MAE 0.89 0.86
MSE 1.20 1.11
RMSE 1.10 1.05
R^2 0.77 0.79
AIC 210.35 205.09
BIC 225.57 220.31
PRESS 78.05 71.97

Na podstawie miar i kryteriów dopasowania danych empirycznych do teoretycznych wybieramy model zbudowany metodą regresji krokowej.

Analiza modelu

Liniowość

Sprawdzamy, czy istnieje liniowa zależność między zmiennymi objaśniającymi (X) a zmienną objaśnianą (Y).

Powyższy wykres zależności wartości dopasowanych do reszt sugeruje brak liniowości analizowanego modelu.

Table 6: P-values testów na liniowość
P_value
Test Reset 0.3990948
Test Rainbow 0.0882449
Test Harvey'a-Collier'a 0.1667162


Ostatecznie jednak, w oparciu o powyższą tabelę (Table 6) odrzucamy początkowe wnioski wynikające z analizy wykresu wartości dopasowanych do reszt. Warunek liniowości jest spełniony.

Homoskedastyczność

W oparciu o poniższy wykres pierwiastka ze standaryzowanych reszt względem wartości dopasowanych, zwracając uwagę na czerwono linię, możemy wnioskować o złamaniu warunku jednorodności reszt modelu. Tezę tę poprzemy (bądź obalimy) przeprowadzając test statystyczny Breutsch’a-Pagan’a.

Otrzymane poniżej p-value nie daje nam jednak powodów do odrzucenia hipotezy od jednorodności reszt modelu. Warunek homoskedastyczności nie został złamany.

  BP 
0.06 

Normalność reszt modelu

Powyższy histogram ilustruje rozkład reszt analizowanego modelu. Wnioskując z jego postaci, możemy mieć powody do wnioskowania o normalności rozkładu szumów modelu.

Poniższy test Shapiro-Wilk’a potwierdza naszą tezę - reszty zadanego modelu mają rozkład normalny.

[1] 0.87